以語法分析為輔建立新聞名詞知識庫 (Construction of Knowledge Base for News Names by Applying Syntactic Rules) [In Chinese]

نویسندگان

  • Changhua Yang
  • Hsin-Hsi Chen
چکیده

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Automatic labeling of troponymy for Chinese verbs

以同義詞集與詞彙語意關係架構而成的詞彙知識庫,如英語詞網 (Wordnet)、歐語詞 網 (EuroWordnet)等,已有充分的研究,詞網的建構也已相當完善。基於相同的目的,中 研院語言所亦已建立大規模之中文詞彙網路 (Chinese Wordnet,CWN),旨在提供完整的 中文辭彙之詞義區分。然而,在目前之中文詞彙網路系統中,由於目前主要是採用人為判 定來標記同義詞集之間的語意關係,因此這些標記之數量尚未達成可行應用之一定規模。 因此,本篇文章特別針對動詞之間的上下位詞彙語意關係 (Troponymy),提出一種自動標 記的方法。我們希望藉由句法上特定的句型 (lexical syntactic pattern),建立一個能夠自 動抽取出動詞上下位的系統。透過詞義意判定原則的評估,結果顯示,此系統自動抽取出 的動詞上位詞,正確率將近百分之七十。本研究盼能將本方法應用於正在發展中...

متن کامل

Semantic Associative Topic Models for Information Retrieval

主題模型(topic model)被廣泛地應用在各種文件建 模以及語音識別、資訊檢索和本文探勘系統中,有 效地擷取文件或字詞的語意和統計資料。大多數主 題模式,例如機率潛在語意分析(probabilistic latent semantic analysis) 和 潛 在 狄 利 克 里 分 配 (latent Dirichlet allocation),主要都透過一組潛藏的主題機 率分布來描述文件與字詞之間的關係,並用以擷取 文件的潛在語意資訊。然而,傳統的主題模型受限 於詞袋(bag-of-words)的假設,其潛藏主題僅能用來 擷取個體詞(individual word)之間的語意資訊。雖然 個體詞可傳達主題信息,但有時會缺乏本文準確的 語意知識,容易造成文件的誤判,降低檢索的品 質。為了改善主題模型的缺點,本論文提出一種新 穎的語意關聯主題模型(semantic associ...

متن کامل

使用關聯法則為主之語言模型於擷取長距離中文文字關聯性 (Association Rule Based Language Models for Discovering Long Distance Dependency in Chinese) [In Chinese]

摘要 本論文提出一種能擷取長距離資訊的語言模型,它可以擷取多詞彙之間的關 聯性,擷取的方式是使用資料探勘中十分流行的 Apriori 演算法,傳統上 n-gram 語言模型只能在 n-gram 視窗內擷取到有限距離的資訊,較長距離的資訊也就因 此而流失,然而這些失去的長距離資訊對於語言模型是十分重要的,所以如何克 服 n-gram 模型缺乏長距離資訊一直是非常熱門的研究課題,觸發序對就是其中 一種有效的方法,其主要功能是在擷取長距離之詞序對資訊,也就是建立起詞與 詞之間的關聯性,然而我們所提出的關聯法則技術能擷取多元詞組間的關聯性, 可以說是進一步改良詞組數並建立更長距離資訊,而實驗結果也顯示本論文方法 比起傳統觸發序對獲得較低的 perplexity,此關聯法則技術也可以有效的與其他 模型調整及模型平滑化的技術結合,在語言模型的效率改善方面能有更良好的效 果,最後本論文也將提出的語...

متن کامل

多語聲學單位分類之最佳化研究 (The Study of Acoustic Model Clustering in Multilingual Speech Recognition) [In Chinese]

由於全球化的形成,人與人之間的溝通不再限於同一種語言,因此多語的語音辨識也變 的格外的重要。如何有效整合多語的聲學模型是一個關鍵議題,因為一組好的多語聲學 單位將影響辨識結果。本論文提出了一套整合專家背景知識與實際語音分析的方法,來 產生一組新的聲學單位,並且對這組聲學單位的數目,使用差分貝式資訊法則來做最佳 的處理。從訓練好的隱藏式馬可夫聲學模型中,計算其單位間的相似度矩陣,之後透過 語音學和音韻學的知識,限定了各個聲學單位能群化的上限,根據不同限定的群化上 限,使用聚合階層式分群法,來建立不同的結構樹。之後,利用差分貝式資訊法則,將 每個結構樹中發音相近的聲學單位做合併,當差分貝式資訊法則的值小於零的時候,就 停止合併,而新合併成一群的聲學單位則為新的聲學單。我們將用 ForSDAT01 華台雙語 語料庫來實驗評量,而實驗結果顯示,本論文所提出的新方法比只用專家知識所定義的 聲學...

متن کامل

相似度比率式鑑別分析應用於大詞彙連續語音辨識 (Likelihood Ratio Based Discriminant Analysis for Large Vocabulary Continuous Speech Recognition) [In Chinese]

在近十年來所發展出的自動語音辨識(automatic speech recognition, ASR)技術中,仍 有許多研究者嘗試僅藉由前端處理來產生具有鑑別性的語音特徵,而獨立於後端模型訓 練與分類器特性。本論文即在此思維下提出嶄新的鑑別式特徵轉換方法,稱為普遍化相 似度比率鑑別分析(generalized likelihood ratio discriminant analysis, GLRDA),其旨在利 用相似度比率檢驗(likelihood ratio test)的概念尋求一個維度較低的特徵空間。在此子空 間中,我們不僅考慮了全體資料的異方差性(heteroscedasticity),即所有類別之共變異矩 陣可被彈性地視為相異,並且在分類上,因著我們也將類別間最混淆之情況(由虛無假 設(null hypothesis)所描述)的發生率降至最低,而達到有助於分類正確率提升的效...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2004